Clase 3: Analisis de Variaza y Prueba Correlacion

Texto alternativo de la imagen

Contenido

Distribucion Normal

La distribución normal es una distribución de probabilidad continuamente distribuida que se utiliza comúnmente en el análisis de datos. Esta distribución es symmetric (simétrica) y tiene una forma de campana, con un pico en el centro y una cola que se extiende hacia los valores extremos.

Para los ejercicios de esta clase utilizaremos la base de datos delomys.csv

delomys <- read.csv("data/delomys.csv")
## here() starts at C:/Users/Pc/OneDrive - University of Massachusetts/ProjectR_Github/CursoAnalisisEstadistico/AE_EstudiosEcologicos
kable(head(delomys))
observation genus binomial body_mass body_length age sex longitude latitude status
27526 Delomys Delomys dorsalis 50.5 259 adult female -48.22950 -24.20256 alive
27528 Delomys Delomys dorsalis 79.0 223 adult female -48.22950 -24.20256 alive
27529 Delomys Delomys dorsalis 57.0 206 adult female -48.22950 -24.20256 alive
27530 Delomys Delomys dorsalis 71.0 229 adult male -48.22950 -24.20256 alive
27533 Delomys Delomys dorsalis 56.0 105 adult male -50.39215 -29.40807 alive
27534 Delomys Delomys dorsalis 50.0 118 adult male -50.39215 -29.40807 dead

Como se puede observar la base de datos delomys presenta varias variables, si queremos sabe si alguna variable en especifico presenta distribucion normal pode utilizar la prueba de shapiro o realizar un grafico cuartil-cuartil.

Prueba de shapiro

Es importante tener en cuenta que la prueba de normalidad de Shapiro no es infalible y puede dar resultados incorrectos si el tamaño de la muestra es pequeño. Por lo general, se recomienda un tamaño de muestra de al menos 30 para utilizar la prueba de normalidad de Shapiro de manera fiable. Además, la prueba de normalidad de Shapiro puede ser sensible a los valores extremos o anómalos en los datos, por lo que puede ser necesario eliminar estos valores antes de realizar la prueba.

shapiro.test(delomys$body_mass)
## 
##  Shapiro-Wilk normality test
## 
## data:  delomys$body_mass
## W = 0.99506, p-value = 4.33e-05

Un gráfico de cuartil-cuartil, también conocido como gráfico Q-Q, es una herramienta gráfica utilizada para evaluar si un conjunto de datos sigue una distribución específica. En el caso de una distribución normal, se esperaría que los datos se ajusten a una línea recta en el gráfico.

library(car)
## Loading required package: carData
qqPlot(delomys$body_mass)

## [1] 1082  985

Es importante tener en cuenta que el gráfico de cuartil-cuartil es solo una herramienta visual y no proporciona una medida cuantitativa de la normalidad de los datos. Para obtener una medida cuantitativa, se puede utilizar una prueba estadística como la prueba de normalidad de Shapiro.

Análisis de varianza

El análisis de varianza (ANOVA) es una técnica estadística que se utiliza para evaluar si hay diferencias significativas entre dos o más grupos en una variable. Se utiliza comúnmente para comparar los resultados de diferentes tratamientos o grupos de estudio en un experimento.

ANOVA de una vía

El análisis de varianza (ANOVA) de una vía es una técnica estadística utilizada para evaluar si hay diferencias significativas entre dos o más grupos en una sola variable. El ANOVA de una vía se utiliza cuando se tienen dos o más grupos y se quiere evaluar si hay diferencias significativas en una sola medida o variable.

table(delomys$status)
## 
## alive  dead 
##  1451   134
ANOVA_status <- aov(body_mass ~ status, data= delomys)
summary(ANOVA_status)
##               Df Sum Sq Mean Sq F value Pr(>F)
## status         1     39   38.62   0.174  0.677
## Residuals   1583 351416  221.99
ANOVA de dos vías

El análisis de varianza (ANOVA) de dos vías es un método estadístico que se utiliza para comparar las diferencias entre dos o más grupos en una medida de interés. Se llama “ANOVA de dos vías” porque examina dos factores a la vez, cada uno de los cuales puede tener varios niveles o categorías.

table(delomys$status, delomys$sex)
##        
##         female male
##   alive    721  727
##   dead      64   68
ANOVA_status_sex <- aov(body_mass ~ status + sex, data= delomys)
summary(ANOVA_status_sex)
##               Df Sum Sq Mean Sq F value   Pr(>F)    
## status         1     14    14.5   0.066 0.797544    
## sex            1   3065  3064.9  13.949 0.000194 ***
## Residuals   1577 346489   219.7                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 5 observations deleted due to missingness
MANOVA

El análisis multivariado de varianza (MANOVA) es un método estadístico que se utiliza para comparar las diferencias entre dos o más grupos en múltiples medidas al mismo tiempo. A diferencia del análisis de varianza (ANOVA), que se utiliza para comparar diferencias entre grupos en una sola medida, el MANOVA se utiliza para comparar diferencias en varias medidas simultáneamente.

delomys_manova <- manova(cbind(body_mass, body_length) ~ sex + status, data = delomys)

summary(delomys_manova)
##             Df   Pillai approx F num Df den Df    Pr(>F)    
## sex          1 0.010151   8.0808      2   1576 0.0003224 ***
## status       1 0.012816  10.2302      2   1576 3.852e-05 ***
## Residuals 1577                                              
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ANCOVA

El análisis de covarianza (ANCOVA) es un método estadístico que se utiliza para comparar las diferencias entre dos o más grupos en una medida de interés, teniendo en cuenta el efecto de una o más variables covariables. Una variable covariable es una variable que puede afectar el resultado de interés y que se mide o observa al mismo tiempo que el resultado de interés.

delomys_ancova <- Anova(lm(body_mass ~ sex + status + body_length, data = delomys))

delomys_ancova
## Anova Table (Type II tests)
## 
## Response: body_mass
##             Sum Sq   Df   F value    Pr(>F)    
## sex            192    1    1.9586 0.1618613    
## status        1229    1   12.5320 0.0004117 ***
## body_length 191881    1 1955.9345 < 2.2e-16 ***
## Residuals   154609 1576                        
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Análisis de correlación

El análisis de correlación es una técnica estadística que se utiliza para determinar si hay una relación entre dos variables. Esta relación se puede medir utilizando el coeficiente de correlación, que puede variar entre -1 y 1. Un coeficiente de correlación cercano a 1 indica una correlación positiva fuerte, lo que significa que a medida que una de las variables aumenta, la otra también aumenta de manera predecible. Un coeficiente de correlación cercano a -1 indica una correlación negativa fuerte, lo que significa que a medida que una de las variables aumenta, la otra disminuye de manera predecible. Un coeficiente de correlación cercano a 0 indica una correlación débil o nula entre las variables.

Prueba de correlación de pearson

cor.test(delomys$body_mass, delomys$body_length)
## 
##  Pearson's product-moment correlation
## 
## data:  delomys$body_mass and delomys$body_length
## t = 44.463, df = 1583, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7224776 0.7663251
## sample estimates:
##       cor 
## 0.7452058

Prueba de correlación de spearman

cor.test(delomys$body_mass, delomys$body_length, method = "spearman")
## Warning in cor.test.default(delomys$body_mass, delomys$body_length, method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  delomys$body_mass and delomys$body_length
## S = 133498504, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.7988407

Grafico de correlacion

library(ggplot2)

ggplot(data= delomys, aes(x =body_length, y= body_mass))+
  geom_point()+
  theme_classic()